Scrapbox ChatGPT ConnectorとOmoikane Embedのデータ形式の比較
ちょっと形式違いません?何か処理すれば食えるのかなーと思ったけど試してないinajob.icon
ちょっと違うnishio.icon
えーと、多分当時はtextだけで、その後project, title, is_public, textに変わったんだな
無くてもよさそうなデータばかりだから、ちょっと直せば使えそうinajob.icon
タイトル情報がないから出典を示せないけどね、キーワードで検索すれば見つかるかもnishio.icon
titleは入ってそう?inajob.icon
self.cache[body] = (embed_text(body), title)
EMBED_MAX_SIZEを超えた本文は無視してベクトル化されている
なるほど。ほとんどのページは収まるはず。Embedの方は長いものも捨てないで良いように刻むようにしたけどどちらがいいかはわからないnishio.icon
何だろうと思っていた、設計意図が聞けてよかったinajob.icon
思い出してきた、500トークンに刻んであれば7件くらいつんでも4000トークン未満に収まるだろ的な発想だnishio.icon
手元では対応したinajob.icon
井戸端に公開されている人のデータで遊んでいる